遥感图像解译: 从单一模态到多模态共享 | 综述
模态是指一种信息来源或形态,人类可以通过各种模态信息,从多个角度感知世界。随着对地观测技术蓬勃发展,已实现通过全色、多光谱、合成孔径雷达等多体制传感器开展对地观测。多模态遥感图像解译已日渐成为一个研究热点,并逐步应用于城市规划、灾害监测、国土资源普查等多个领域。
图1 多模态遥感图像示例. (a)(b)为同区域的高分二号、高分三号卫星图像,(c)(d)为同区域的多传感器航空遥感影像
近期,中国科学院空天信息创新研究院付琨、孙显研究员团队提出了从单模态到多模态的遥感图像解译综述,在充分调研前期成果基础上,阐述了遥感图像解译从单模态发展到多模态面临的问题挑战,系统介绍了多模态遥感图像解译的技术路线、主流方法、优势特点和典型应用,并探讨了该领域未来的研究方向。
图2 按年份统计的该领域相关研究成果数量
本综述的主要贡献如下:
(1)对多模态遥感图像解译方法的发展历程进行了较为全面的回顾,细致分析其面临难点,创新构建了一个完整的多模态遥感图像解译知识层次结构。
(2)针对多模态遥感图像解译的技术路线,提出了一个易于理解的层次分类法,从多模态对齐、多源融合、多模态表示、跨模态翻译和联合学习等不同任务角度进行阐述,在每个任务中根据可归纳的特性进一步细分介绍。
(3)总结了最新面向多模态遥感图像解译的可扩展研究方向,并讨论了当前进展,指出其任务挑战,有助于指导解决实际应用中的智能解译难题。Sun X, Tian Y, Lu W X, et al. From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy. Sci China Inf Sci, 2022, doi: 10.1007/s11432-022-3588-0
(扫描二维码,免费下载全文PDF)
多模态遥感图像解译技术路线分类
本文将多模态遥感图像解译方法分为以下五大类,包括多模态对齐、多源融合、多模态表示、跨模态翻译和联合学习。
图3 多模态遥感图像解译技术分类体系
图4 多模态对齐的三种常见技术框架
(2)多源融合:旨在将两个或更多的遥感数据、或对同一复杂场景具有互补信息的其他观测数据结合起来进行信息的处理、分析和决策,从而获得更高质量的数据用于物体的预测、分类或回归,一般分为数据层融合、特征层融合以及决策层融合等。其难点主要在于异质数据的融合,由于模型对不同传感器和场景的适应性较差,在应用中需要根据场景环境测试和选择不同的模型。
图5 多源融合的三个主要层次
(3)多模态表示:旨在将多模态信息提取并抽象为高级特征向量,利用不同模态特征之间的互补性,消除冗余以学习更好的目标特征。例如,为了对城市分类和三维建筑重建进行编码,数字表面模型(DSM)和遥感正射影像被结合起来并输入到同一个表示空间。多模态表示学习一直是一个被广泛研究的课题,为其他应用提供了一个统一的特征表示空间,如模态对齐、模态转换等。
图6 多模态表示的三种常见技术框架
(4)跨模态翻译:近年来,一个新兴方向是将信息从一种模态转换到另一种模态。这项任务的方法倾向于利用生成模型,而预测的目标是开放式的或主观的,生成的模态与源模态是异质的。例如,使用SAR数据来生成全色图像。由于遥感图像通常表现为大尺度、高密度和大纵横比,在跨模态翻译中的信息损失往往是自然场景图像的几倍甚至几十倍。另一个主要挑战是如何过滤和确定图像中的关键信息并对其定量表征。
图7 跨模态翻译示例
(5)联合学习:利用资源丰富的数据来协助资源贫乏的数据进行训练,一直是解决少数人学习的有效方法。对于复杂场景,单模态传感器可能是稀缺的,所以需要另一个丰富的模式来协助学习。在一些需要领域适应或转移的情况下,模态间信息可以利用协同学习来辅助。例如,在资源丰富的光学图像特征上预训练模型,在稀缺的SAR图像特征上学习分类,可以提高模型的分类性能。
多模态遥感图像解译典型应用
图8 多模态遥感图像解译的典型应用场景
(1)土地利用分类:是多模态遥感图像解译最早的应用。不同的土地作物在卫星图像中具有相似的光谱特征,通过单一模态对其进行分类,不可避免地会产生一些判别错误。通过多模态互补数据对其进行分析,可以在分辨率、光谱性和时间性三个方面得到加强,从而提高土地利用分类的准确率。
(2)城市规划:通过对多模态数据的分析,可大幅缩短对同一地区的观测间隔。遥感数据的多模态性为从多角度观察城市的变化和发展提供了可能,通过对历史数据的观察,可以对城市的发展进行有效的规划和预测。
(3)农业和生态学:许多农作物在同一时刻往往外观相似,需要通过多模态卫星图像时间序列进行观察,以提高分类的准确性。在生态学方面,多模态图像解译也有很大的应用潜力,如生态变量的估计、生态系统的动态监测、生态系统的干扰检测等。未来研究方向
多模态图像修复:与单模态图像修复不同,该任务倾向于从异质图像中获取互补信息进行图像恢复,这需要对不同模态之间的依赖关系进行适当的建模。其在去噪任务中具有非常重要的作用,如面向不同传感器的云层去除等。
三维场景重建:从卫星图像中自动重建场景模型是一个具有挑战性的研究方向。对共生遥感场景建模等同于多视角解释问题。与自然场景的室内重建相比,大规模遥感场景更加复杂,尤其是建筑物密布的城市区域。
土地利用精准分类:尽管近年来在土地利用分类和检测方面取得了相当大的进展,但受限于开源数据集的规模等因素,很难在所有的实际场景中得到应用。一个理想的多模态解码框架应该能够处理具有不同数据复杂性和数据来源的学习任务。因此,核心是如何提高该类方法的鲁棒性和通用性。
异质时序图像变化检测:异质图像变化检测任务只考虑双时空遥感图像。而在实际应用中,往往需要分析一系列长时间序列的图像来推断该时间段内场景的变化和发展,这对于城市发展、规划、自然环境保护等都是非常有用的。
场景预测和补充:这是一个新兴的研究方向。它通过对场景的长时间序列进行特征提取和建模,预测场景的未来发展或补充中间时刻的要素。这项任务为区域发展预测和历史性分析提供了可能。
交叉模态分析:该任务的关键是提取复杂遥感场景中的关键实例,并将其与其他模态信息进行对齐或转换。主要涉及遥感图像-语音(文字)对齐、遥感场景描述、遥感场景智能问答等方向。
相关阅读